在做数据的统计分析之前, 一般需要对数据进行预处理, R语言中提供了相应的函数来完成数据管理。
有些情况下, 数据集需要排序后才能得到更多信息, 在R语言中有sort(),rank(),order()
等函数用于数据排序。 sort()
函数是对向量进行从小到大的排序; rank()
函数返回向量中每个数值对应的秩; order()
函数返回的值表示位置, 依次对应的是向量的最小值、 次小值、第三小值 $\cdots$, 最大值; dplyr
包中的 arrange()
函数针对数据框, 返回基于某列排序后的数据框, 方便多重依据排序。
当数据较为分散时需要将所需数据都合并到一起,合并方式包括横向合并 (添加列)以 及纵向合并 (添加行)
(1) 添加列
可使用merge()
函数或者cbind()
函数横向合并两个数据集。使用cbind()
合并时要注意意合并对象必须拥有相同的行数, 并且以相同顺序排列。 merge()
函数的基本语法格式为: merge(x, y, by = intersect(names(x), names(y)), by.x=by, by.y=by, all = FALSE)
其中, x, y
为需要合并的数据集; by、by.x 、by.y
表示数据集联结依据的变量; all 值
为逻辑值, 倶认值为 FALSE
, 输出结果中只包含 x 、 y
数据集共有行, 若设置为 TRUE
, 结果表示为x,y
数据集的并集。
(2) 添加行
使用rbind()
函数纵向合并数据集。要求两个数据框必须拥有相同的变量,顺序不一定相同。纵向合并通常用于向数据框中添加观测值。
在处理数据过程中, 不可避色地会出现数据缺失的现象。在 R 语言中缺失值以符号 NA
(Not Available, 不可用) 表示; 不可能出现的值通过符号 NaN
(Not a Number, 非数值缺失值相应的位置为 TRUE
, 其他为 FALSE
。在数据处理过程中, 大多数函数中都存在参数 na.rm=TRUE
选项用于移除缺失值。也可以通过函数 na.omit()
移除所有含有缺失值的行。
摘自: